检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 面向大文本数据集的间接谱聚类

侯海霞原民民刘春霞

计算机应用 2012, 32 (12): 3274-3277. DOI: 10.3724/SP.J.1087.2012.03274

摘要（834）

PDF （605KB）（555）

针对谱聚类存在计算瓶颈的问题，提出了一种快速的集成算法，称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类，然后把每个过分簇看成一个基本对象，最后在过分簇的级别上利用标准谱聚类来完成总体的聚类。将该思想应用于大文本数据集的聚类问题后，过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法。在20-Newgroups文本数据上的实验结果表明：间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%，但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时，提出的算法却能快速地给出次优解。